HTML

API у веб-сайтов бывает очень редко. А часто оно бывает еще и платным. Поэтому нужно как-то обходится без него. В таких случаях пытаются извлечь информацию с сайта вручную.

Любой сайт написан на языке HTML. Давайте откроем сайт яндекса. Мы видим его следующим образом.

На самом деле мы можем посмотреть его HTML-код. Для этого нужно в браузере (в Safari не получится) нажать правой кнопкой мыши и выбрать “Просмотр кода страницы”.

Можно увидеть вот такой страшный и непонятный код.

Это и есть язык верстки сайтов HTML – Hyper Text Markup Language. Посмотрим как выглядит самый простой html-код.

<!DOCTYPE html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>Какая-то страница</title>
  </head>
  <body>
      <H1>Какой-то заголовок</H1>
      <p>Какой-то текст</p>
  </body>
</html>

Попробуйте создать текстовый файлик с разрешением .html и посмотреть как он выглядит в браузере.

Любой html-код из нескольких частей:

  1. <!DOCTYPE html> – это надпись идет в самом начале. В ней указывается, что этот файлик - html, а также указывается его версия.
  2. <html></html> – главный тег, внутри которого записывается весь html-код.
  3. <head></head> – первый основной тег, внутри которого записывается какая-то мета-информация, которая не будет видна на сайте. Например, кодировка или заголовок страницы.
  4. <body></body> – второй основной тег, в котором записывается вся информация, которую видит пользователь на странице.
Как вы могли заметить в html основная концепция заключается в тегах. Есть открывающий тег ( ) и закрывающий тег (

). Между этими тегами могут быть другие теги или что-то другое, например текст.

Рассмотрим некоторые теги:

  • H1-H6 – теги для заголовков
  • p – тег для абзацев